Lifting the Curse of Multilinguality by Pre-training Modular Transformers
https://gyazo.com/58739452292513463d6e94cead40aec8
NACCL22
多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在する
この「多言語の呪い」を対処するモデルとしてX-MODを提案
概略
言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせる
それ故, 拡張は容易で, 学習・推論時のコストはかからない
また, 新たな言語を追加するのも容易い
https://gyazo.com/17c7d0983d31741232d266fc4157a03a
share型とX-Modを定量的に比較
言語を増やしてもperplexity及びperformanceは悪化せず, むしろ成長する
https://gyazo.com/ce7bbea671ae4aaa118a9a4bb367bdc4
pretrain時の学習データセットはCC100で, NLI, NER, QAで実験
下流タスクはすべて英語でfine-tuningし, 評価は多言語で実施
結構良いカンジ
既知言語
https://gyazo.com/1ba10be20c71521d17c511c74b054a15
未知言語
https://gyazo.com/959a37b377717b88ba6813e011ca3ec3
言語について
pretrainで使う言語と, 新たに追加する言語の2タイプ存在
https://gyazo.com/4ad7453d5942be27ca6b75160597f8aa